#estimación beta-bernoulli

Estimación de recompensa Beta-Bernoulli descontada para aprendizaje por refuerzo eficiente en muestras con recompensas verificables

Aprendizaje por refuerzo eficiente con estimación Beta-Bernoulli descontada y recompensas verificables. Método avanzado para optimizar RL.